Accueil > Sommaire > Plans d’expériences

1 Groupes parallèles

1.1 Introduction

L’essai en deux groupes parallèles, appelé aussi en bras parallèles (« parallel groups » ou « parallel arms »), est l’archétype de l’essai thérapeutique. Le traitement étudié est comparé à un traitement contrôle (placebo ou traitement actif) à l’aide de deux groupes de patients constitués par randomisation de façon contemporaine et suivis en parallèle. Nous ne reviendrons pas sur ce plan d’expérience qui a été longuement décrit avec l’exposé des principes méthodologiques.

Ce schéma peut être étendu à plusieurs groupes, autorisant la comparaison de plusieurs traitements ou modalités de traitements entre eux. Différents cas de figure sont possibles :

· deux ou plusieurs traitements concurrents sont comparés à un même contrôle (placebo ou traitement actif) et/ou entre eux,

· différentes doses du même traitement sont comparées à un placebo. Il s’agit d’une étude de relation dose-efficacité,

· un traitement étudié est comparé à plusieurs contrôles, par exemple son placebo et un traitement actif.

Dans tous les cas, les essais multigroupes posent des problèmes particuliers d’ordre statistique liés aux comparaisons multiples.

1.2 Relation dose-efficacité, essai de doses

Les essais de doses étudient différentes doses d’un même traitement à la recherche de la dose optimale : celle qui est à la fois la plus efficace et la mieux tolérée. Ce sont des essais qui comprennent un groupe contrôle (recevant le plus souvent un placebo) et plusieurs autres groupes recevant des doses différentes du même traitement. Ces essais sont réalisées dans deux situations différentes.

Tout d’abord à la phase précoce du développement d’un traitement où le but est d’établir la courbe de dose-réponse en utilisant le plus souvent un critère de jugement intermédiaire. L’estimation de cette courbe repose sur l’étude d’un nombre conséquent de doses.

À un stade plus avancé du développement, la dose optimale peut aussi être recherchée en utilisant un critère clinique. Cette recherche est nécessaire quand il est difficile d’extrapoler les informations obtenues au niveau du critère intermédiaire. C’est par exemple le cas avec les médicaments de la coagulation où les effets hémorragiques qui sont très dose-dépendant ne peuvent être étudiés valablement qu’avec les critères cliniques (accidents hémorragiques). Comme ces études de dose nécessitent plus de patients pour effectuer les comparaisons, elles sont conduites en utilisant seulement un petit nombre de doses (en général deux).

L’analyse de ce type d’étude repose sur la recherche d’une relation entre les doses et l’effet par un test de tendance. Ensuite, chaque dose est comparée au contrôle. Il est rare que les doses soient comparées par un test statistique, car ces comparaisons, pour être puissantes, nécessiteraient d’inclure un grand nombre de patients dans chaque bras. Au final, la détermination de la dose optimale nécessite que le test de tendance soit significatif et que la dose retenue soit effectivement supérieure au contrôle. La dose est déterminée en évaluant la balance bénéfice-risque de chaque dose.

Note : Tests statistiques de tendance - Les tests de tendance (« trend test ») recherchent si la variable à expliquer varie en même temps que la variable explicative. La régression linéaire est un test de tendance pour les variables continues. Il existe des tests de tendance adaptés aux proportions, aux odds ratio, etc.

Plusieurs comparaisons statistiques sont réalisées dans une étude de doses. Pour limiter les conséquences de l’inflation du risque alpha, l’utilisation d’une méthode d’ajustement comme la méthode de Bonferroni est recommandée. Dans un essai où k doses seront comparées au placebo, un seuil de signification statistique de a/k est utilisé pour chaque comparaison. Si, en plus, chaque dose est comparée aux autres le seuil ajusté est de a/2k.

D’autres plans d’expérience sont utilisables pour les études de doses. Si ses conditions de validité sont remplies, le plan croisé permet aussi la comparaison de plusieurs doses. Il a l’avantage de mesurer la relation dose-effet au niveau individuel.

Des plans spécifiques sont aussi employés comme « la titration forcée » ou l’« optionnal titration ». Ils dépassent le cadre de cet ouvrage.

Exemple

Un essai a comparé 3 dose de levodopa dans la maladie de Parkinson (1).

« METHODS: In this randomized, double-blind, placebo-controlled trial, we evaluated 361 patients with early Parkinson's disease who were assigned to receive carbidopa-levodopa at a daily dose of 37.5 and 150 mg, 75 and 300 mg, or 150 and 600 mg, respectively, or a matching placebo for a period of 40 weeks … The primary outcome was a change in scores on the Unified Parkinson's Disease Rating Scale (UPDRS) between baseline and 42 weeks.”

La relation dose effet a été recherché à l’aide du test de tendance. « Levodopa, in a dose–response pattern, significantly (P<0.001) reduced the worsening of symptoms of Parkinson’s disease as reflected in the change between the total score on the UPDRS at baseline and that at week 42 (i.e., two weeks after washout of the study medication) »

1.1 Comparaison de plusieurs traitements

Le principe général de ces essais est le suivant. Deux nouveaux traitements A et B sont comparés au placebo pour montrer leur efficacité. À la question double de l’efficacité de A et B par rapport au placebo se pose aussi la question du traitement le plus efficace entre A et B.

Cet essai conduit donc à la réalisation de 3 comparaisons statistiques : A vs placebo, B vs placebo et A vs B. Le seuil de signification statistique de chacune de ces comparaisons devra donc être corrigé pour tenir compte de l’inflation du risque alpha lors de comparaisons multiples.

Le calcul du nombre de sujets nécessaires doit aussi être effectué de façon à garantir une puissance statistique correcte à toutes ces comparaisons. En particulier, la comparaison A vs B concerne deux traitements actifs et demande des effectifs plus importants qu’une comparaison par rapport au placebo. Toutes ces comparaisons doivent être clairement définies a priori comme objectif de l’essai. Autrement, les comparaisons non prévues sont purement exploratoires et sans valeur de confirmation.

Exemple

L’essai EPIC comparait deux modalités d’administration d’un anti agrégant plaquettaire anti-Gp2b3a, l’abciximab comme traitement adjuvant à l’angioplastie coronaire. L’objectif était d’éviter la survenue de l’occlusion précoce de l’artère dilatée. Deux modes d’administration de l’abciximab étaient comparés au placebo : un bolus de 0.25mg/kg et un bolus de 0.25mg/kg suivi par une perfusion de 10µg/min. La taille des trois groupes était d’environ 70 patients.

Fréquence du critère de jugement principal dans les 3 groupes

Placebo	Bolus	Bolus + perfusion
n=696	n=695	n=708
89 (12,8%)	79 (11,4%)	59 (8,3)%

Le test de tendance est significatif (p=0,009), mais seulement la comparaison individuelle du bolus associé à la perfusion vs placebo est significative p=0,008 ; la comparaison du bolus au placebo donne p=0,43. Le plan d’analyse ne prévoyait de faire les comparaisons vs placebo que si le test de tendance était significatif. Ces résultats conduisent à recommander l’association bolus+perfusion.

2 Stratification

La stratification consiste à séparer dans l’essai différents types de patients à l’aide de strates. Une randomisation indépendante est réalisée dans chaque strate, ce qui conduit à un équilibre des effectifs entre les 2 groupes de chaque strate.

Tableau 1 – Exemple d’un essai stratifié sur les hommes et les femmes.

	Groupe traité	Groupe contrôle
Strate des hommes	256	260
Strate des femmes	123	120
Ensemble de l’essai	379	380

La stratification est utilisée :

· avant tout pour ajuster sur un facteur pronostique important, ce qui réduit la variabilité de la mesure de l’effet et augmente la puissance.

· pour tester deux hypothèses simultanément (voir le chapitre consacré aux sous-groupes),

2.1 Stratification pour diminuer la variance résiduelle

La stratification sur un facteur pronostique augmente la puissance de la recherche de l’effet traitement en diminuant la variabilité résiduelle rattachée à la comparaison.

Imaginons que dans le groupe de patients présentant le facteur E, la moyenne du critère de jugement est différente de celle du groupe des patients ne présentant pas le facteur E. Dans ces groupes la variabilité des valeurs est la même. Si ces deux groupes de patients sont rassemblés, la variabilité des mesures devient plus forte que la variabilité observée au sein de chaque groupe : la variabilité inter-groupe va s’ajouter à la variabilité intra-groupe. (cf. chapitre Statistiques avancées). L’ajustement consiste à rechercher l’effet du traitement dans chaque groupe puis à fusionner ces effets traitements. La recherche de l’effet traitement est plus puissante à l’intérieur de chaque groupe car la variabilité y est plus faible par construction. L’ajustement revient à faire une sorte de méta-analyse des résultats de chaque strate d’ajustement.

Contrairement aux études épidémiologiques, le but de la stratification n’est pas d’éviter un biais de confusion car dans les essais, les effectifs des groupes au sein des strates sont équilibrés par la randomisation.

2.2 Valider le traitement dans deux populations de patients

L’autre utilisation de la stratification est d’effectuer la validation du traitement dans deux populations de patients différents. Ce plan d’expérience est utilisé quand il y a des arguments pour penser que l’effet du traitement ne sera pas identique dans ces deux populations. Cette utilisation de la stratification répond de façon satisfaisante à la problématique des analyses en sous-groupes : l’hypothèse est formulée a priori et le calcul du nombre de sujets nécessaires est effectué dans chaque strate.

3 Autres plans d’expérience

Différents plans d’expériences ont été proposés pour répondre à des questions spécifiques ou pour contourner les rares limites (inconvénients) du plan d’expérience en bras parallèle. Le tableau 2 présente un récapitulatif des diverses possibilités.

3.1 Essai de remplacement

L’essai de remplacement s’adresse à des patients souffrant d’une maladie chronique et qui prennent déjà un traitement. Cet essai consiste à substituer après randomisation et en double aveugle, le traitement habituel des patients par le traitement testé. L’intérêt de cette substitution est d’éviter l’arrêt chez tous les patients du traitement habituel, évitant ainsi les désagréments d’un sevrage (par exemple avec les corticoïdes). Si besoin, la substitution peut avoir lieu avec un chevauchement des deux thérapeutiques pour effectuer un relais par exemple. De plus, ce plan d’expérience peut augmenter l’acceptabilité de l’essai.

Ce type d’essai peut aussi être utilisé pour évaluer chez ces patients un traitement habituel mais qui n’a pas fait la preuve de son efficacité. Après randomisation, le traitement habituel de la moitié des patients est remplacé par un placebo.

Exemple

La prophylaxie des pneumopathies à pneumocystis carinii dans l’infection par VIH est recommandée chez les patients présentant une immunodéficience importante (moins de 200 CD4/mm3). Cependant, se pose la question de l’arrêt de la chimio-prophylaxie après la remontée du taux de CD4 en réponse à un traitement antiviral intensif. Cette question a été abordée par un essai de remplacement comparant par randomisation arrêt et poursuite de la prophylaxie chez 474 patients (2).

3.2 Essai avec sortie rapide (traitement de sauvetage)

Dans les essais avec sortie rapide, le traitement de l’essai (éventuellement le placebo) est promptement arrêté en cas d’aggravation du patient ou d’échec du traitement de l’étude dans l’obtention d’un certain but comme, par exemple : une pression artérielle non contrôlée au bout d’une durée pré déterminée ou s’élevant au dessus d’une valeur maximale ; une fréquence de crises d’épilepsie ou d’angine de poitrine supérieure à un seuil prédéfini ; l’absence de normalisation des enzymes au bout d’un certain temps dans une hépatite, etc. Le traitement peut aussi être changé à la première survenue d’un événement qu’il est censé prévenir : première récidive d’angor instable, de grand mal épileptique, crise de tachycardie supraventriculaire, etc…

Tableau 2 - Récapitulatif des principaux plans d’expérience

Deux bras parallèles, contre placebo

Deux bras parallèles, contre traitement actif

Trois bras parallèles contre placebo et contre traitement actif

Dose effet (plusieurs doses du traitement sont testées contre placebo ou traitement de référence actif)

Évaluation par-dessus (« on top », « add-on »)

Plan factoriel

Essai croisé

Essai croisé multi traitement ou multi période (carré latin)

Essai de taille 1

Essai de remplacement

Essai de sortie rapide

Essai de retrait

Le critère de jugement est la nécessité de changer de traitement. Les critères de décision de changement de traitement doivent être parfaitement définis ainsi que la périodicité des réévaluations afin d’éviter que des patients ne restent pas sous un traitement qui ne contrôle pas suffisamment leur maladie.

L’inconvénient de ce type d’essai est qu’il donne uniquement des informations sur l’efficacité à court terme

3.3 Essai de retrait

Dans les essais de retrait (« withdrawal trial »), tous les patients reçoivent le traitement testé durant une certaine période puis celui-ci est arrêté et remplacé (retrait) par le placebo chez un certain nombre de patients déterminé par randomisation. Après retrait randomisé la période d’observation peut être de durée fixe ou s’étendre jusqu’à la survenue du critère de jugement (événement clinique)

L’essai de retrait randomisé permet, par exemple, de déterminer l’effet préventif sur la rechute de la prolongation d’un traitement prescrit pour traiter un épisode aigu de maladie récidivante. Y a-t-il lieu de poursuivre un traitement après le traitement d’un épisode aigu ? Par exemple, la prolongation d’un traitement antiviral permet-elle de réduire la fréquence des récidives dans l’herpès.

La recherche de dose peut utiliser un plan d’expérience similaire dénommé essai d’escalade. Un effet rebond survenant à l’arrêt du traitement peut faire croire à la persistance de l’efficacité.

Exemple

L’essai RADIANCE (3) est un essai de retrait de la digoxine réalisé chez 178 patients porteurs d’une insuffisance cardiaque chronique de stade II ou III, traitée par diurétique, digoxine et IEC. Après randomisation et en double insu, la digoxine a été arrêtée chez 93 patients et remplacée par un placebo. Une aggravation de l’insuffisance cardiaque a été observée chez 23 patients après arrêt de la digoxine et chez seulement 4 patients pour ceux qui ont continué à recevoir la digoxine (p<0.001).

La taille de l’effet observé avec ce type d’essai est en général supérieure à celle vue dans une population non sélectionnée car la randomisation porte uniquement sur des patients qui tolèrent le traitement testé et qui ne s’aggravent pas. En effet, en fin de période initiale, les patients qui sont effectivement randomisée et sur lesquels portera la comparaison sont des patients sélectionnés, non représentatifs des patients tout venant.

Lorsque la question posée est la durée du traitement, un essai de retrait répond en fait à la question suivante : après une certaine durée de traitement y-a-t-il un intérêt à poursuivre un traitement chez les sujets qui sont toujours traités et qui n’ont donc pas présenté jusque là le critère de jugement et qui ont bien toléré le traitement. La réponse apportée ne s’applique qu’à des patients qui sont arrivés au terme d’une certaine durée de traitement sans présenter le critère de jugement (une récidive par exemple) et qui ont bien toléré le traitement durant cette période.

La même question initiale peut aussi être abordée avec un essai classique comparant une durée courte de traitement (correspondant à la durée de la période initiale de l’essai de retrait) à une durée longue (correspondant à la phase de prolongation de l’essai de retrait). Cet essai répond alors à la question : y-a-t-il un intérêt à envisager d’emblée un traitement prolongé par rapport à un traitement de courte durée.

3.4 Les extensions d’essais

Les extensions d’essais consistent à continuer l’observation des patients après la fin programmée de l’essai proprement dit. Cette extension est toujours réalisée de façon ouverte (autrement il s’agit d’un essai de retrait ou un essai croisé), sans groupe contrôle (tous les patients de l’essai reçoivent le traitement étudié). Les apports de ce type d’observation sont très limités. En particulier, ces extensions ne permettent pas d’obtenir des données fiables sur les effets indésirables ou sur l’efficacité en raison de l’absence de groupe contrôle et du fait que n’entrent dans la phase de prolongation que les patients satisfaits de l’efficacité et de la tolérance du traitement.

3.5 Randomisation non équilibrée

Le plus souvent la randomisation répartie les patients en nombre égal dans les groupes traité et contrôle d’un essai. On parle alors de randomisation 1:1, pour un patient alloué dans le groupe traité, un autre patient sera alloué dans le groupe contrôle^{^[1]}. Dans le cas d’une comparaison entre deux groupes, cette répartition assure une puissance statistique optimale. Cependant dans certains essais, la randomisation est conçue pour obtenir un effectif 2 fois ou 3 fois supérieur, rarement plus, dans un groupe par rapport à l’autre. Différentes raisons conduisent à ce choix.

Dans un essai multibras, le groupe contrôle sert à plusieurs comparaisons. Il a été proposé que son effectif soit plus important que celui des autres groupes.

Une autre justification est de réduire le nombre de patients alloué au groupe du traitement que les investigateurs pensent être inefficace par exemple le placebo, afin de diminuer le nombre de patients qui auront une perte de chance du fait de leur participation à l’essai. Ce raisonnement est fallacieux car il sous-entend une intime conviction que le traitement est efficace. Or, soit les preuves de cette efficacité existent déjà et dans ce cas un nouvel essai à la recherche de l’efficacité est inutile. Soit cette démonstration n’existe pas et dans ce cas il y a équité entre les deux traitements. Dans ce cas, rien ne garantit que ce seront les patients du groupe traité avec le traitement étudié qui seront les plus chanceux. Si ce traitement s’avère délétère, ce seront les patients du groupe contrôle qui auront reçu le meilleur traitement.

Malgré ces réserves, une randomisation déséquilibrée peut être envisagée dans le deuxième essai réalisé pour confirmer le résultat favorable du premier essai. Le premier essai apporte une information a priori fiable. Il n’est pas encore formellement démontré que le traitement étudié soit supérieur au traitement contrôle, mais cela est fort probable.

4 Bibliographie

1. Fahn S, Oakes D, Shoulson I, Kieburtz K, Rudolph A, Lang A, et al. Levodopa and the progression of Parkinson's disease. N Engl J Med 2004;351(24):2498-508.

2. Bernaldo de Quiros JC, and the Grupo de Estudio del SIDA 04/98. A randomized trial of the discontinuation of primary and secondary prophylaxis against pneumocystis carinii pneumonia after highly active antiretroviral therapy in patients with HIV infection. NEJM 2001;344:159-67.

3. Packer M, Gheorghiade M, Young JB, Costantini PJ, Adams KF, Cody RJ, et al. Withdrawal of digoxin from patients with chronic heart failure treated with angiotensin-converting-enzyme inhibitors. NEJM 1993;329:1-7.

Interprétation des essais cliniques pour la pratique médicale

www.spc.univ-lyon1.fr/polycop

Michel Cucherat

Faculté de Médecine Lyon - Laennec

Mis à jour : aout 2009

^{^[1]} Ce rapport est assuré en moyenne. Dans les essais multicentriques des déséquilibres modérés peuvent apparaître voir chapitre sur la randomisation en bloc.